智能论文笔记

Video Frame Synthesis using Deep Voxel Flow

Ziwei Liu , Raymond A. Yeh , Xiaoou Tang , Yiming Liu , Aseem Agarwala

分类：

2017-02-08

We address the problem of synthesizing new video frames in an existing video, either in-between existing frames (interpolation), or subsequent to them (extrapolation). This problem is challenging because video appearance and motion can be highly complex. Traditional optical-flow-based solutions often fail where flow estimation is challenging, while newer neural-network-based methods that hallucinate pixel values directly often produce blurry results. We combine the advantages of these two methods by training a deep network that learns to synthesize video frames by flowing pixel values from existing ones, which we call deep voxel flow. Our method requires no human supervision, and any video can be used as training data by dropping, and then learning to predict, existing frames. The technique is efficient, and can be applied at any video resolution. We demonstrate that our method produces results that both quantitatively and qualitatively improve upon the state-ofthe-art.

translated by 谷歌翻译

Grape Cold Hardiness Prediction via Multi-Task Learning

Aseem Saxena , Paola Pesantez-Cabrera , Rohan Ballapragada , Kin-Ho Lam , Alan Fern , Markus Keller

分类：机器学习

2022-09-21

秋季和春季的寒冷温度有可能对葡萄藤和其他水果植物造成霜冻损害，这可能会大大降低收获产量。为了防止这些损失，农民在判断可能造成损失时，采取了昂贵的霜冻缓解措施，例如洒水装置，加热器和风车。然而，这种判断是具有挑战性的，因为植物的冷耐度在整个休眠期间变化，并且很难直接测量。这导致科学家开发了基于费力的现场测量数据，可以将其调整为不同的葡萄品种。在本文中，我们研究了深度学习模型是否可以基于在30年期间收集的数据来改善葡萄的冷坚硬预测。一个关键的挑战是，每个品种的数据量高度可变，有些品种只有少量。为此，我们研究了多任务学习来利用各种品种的数据，以提高个人品种的预测性能。我们评估了许多多任务学习方法，并表明，性能最高的方法能够显着改善单个品种的学习，并优于大多数品种的当前最新科学模型。

translated by 谷歌翻译

PlaneFormers: From Sparse View Planes to 3D Reconstruction

Samir Agarwala , Linyi Jin , Chris Rockwell , David F. Fouhey

分类：计算机视觉

2022-08-08

我们提出了一种从有限重叠的图像中对场景进行平面表面重建的方法。此重构任务是具有挑战性的，因为它需要共同推理单个图像3D重建，图像之间的对应关系以及图像之间的相对摄像头姿势。过去的工作提出了基于优化的方法。我们引入了一种更简单的方法，即平面形式，该方法使用应用于3D感知平面令牌的变压器执行3D推理。我们的实验表明，我们的方法比以前的工作更有效，并且几项3D特定的设计决策对于成功的成功至关重要。

translated by 谷歌翻译

Structural Similarity for Improved Transfer in Reinforcement Learning

C. Chace Ashcraft , Benjamin Stoler , Chigozie Ewulum , Susama Agarwala

分类：机器学习

2022-07-27

转移学习是开发性能RL代理的越来越普遍的方法。但是，尚不清楚如何定义源和目标任务之间的关系，以及这种关系如何有助于成功转移。我们提出了一种称为两个MDP或SS2的结构相似性的算法，该算法基于先前开发的双仿真指标来计算两个有限MDP的状态的状态相似性度量，并表明该量度满足距离度量的属性。然后，通过GRIDWORLD导航任务的经验结果，我们提供了证据表明，距离度量可用于改善Q学习剂的转移性能，而不是先前的实现。

translated by 谷歌翻译

Deep equilibrium networks are sensitive to initialization statistics

Atish Agarwala , Samuel S. Schoenholz

分类：机器学习

2022-07-19

深度均衡网络（DEQ）是构建模型以进行计算的模型的一种有希望的方法。但是，与传统网络相比，对这些模型的理论理解仍然缺乏，部分原因是一组重量的重复应用。我们表明，DEQ对初始化的基质家族的高阶统计敏感。特别是，用正交或对称矩阵初始化可以在训练中提高稳定性。这为我们提供了初始化的实用处方，该处方允许以更广泛的初始重量量表进行训练。

translated by 谷歌翻译

Formalizing the Problem of Side-Effect Avoidance

Alexander Matt Turner , Aseem Saxena , Prasad Tadepalli

分类：人工智能

2022-06-23

AI目标通常很难正确指定。有些方法通过规范AI的副作用来解决此问题：代理必须用不完美的代理目标来权衡“他们造成了多少混乱”。我们通过援助游戏框架提出了一个正式的副作用正规化标准。在这些游戏中，代理解决了一个可观察到的马尔可夫决策过程（POMDP），代表了其对其应优化目标函数的不确定性。我们考虑在以后的时间步骤向代理揭示真正目标的设置。我们证明，通过将代理人奖励与代理商实现一系列未来任务的能力进行交易，可以解决此POMDP。我们通过在两个环境环境中的地面真相评估来证明问题形式化的合理性。

translated by 谷歌翻译

Counseling Summarization using Mental Health Knowledge Guided Utterance Filtering

Aseem Srivastava , Tharun Suresh , Sarah Peregrine , Lord , Md. Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2022-06-08

心理治疗干预技术是治疗师和患者之间的多方面对话。与一般的临床讨论不同，心理治疗的核心成分（即症状）很难区分，因此成为以后要总结的复杂问题。结构化的咨询对话可能包含有关症状，心理健康问题病史或发现患者行为的讨论。它还可能包含与临床摘要无关的讨论填充单词。我们将结构化心理治疗的这些要素称为咨询组成部分。在本文中，目的是心理健康咨询的摘要，以基于领域知识并帮助临床医生快速收集意义。在注释咨询组件的12.9k话语和每次对话的参考摘要之后，我们创建了一个新的数据集。此外，我们建议消费是一种新颖的咨询组件指导摘要模型。消费经历三个独立模块。首先，为了评估抑郁症状的存在，它使用患者健康问卷（PHQ-9）过滤了话语，而第二和第三模块旨在对咨询组件进行分类。最后，我们提出了针对特定问题的心理健康信息捕获（MHIC）评估指标，用于咨询摘要。我们的比较研究表明，我们改善了性能并产生凝聚力，语义和连贯的摘要。我们全面分析了生成的摘要，以研究心理治疗元素的捕获。摘要的人类和临床评估表明，消费会产生质量摘要。此外，心理健康专家验证了消费的临床可接受性。最后，我们讨论了现实世界中心理健康咨询摘要的独特性，并在Mathic.ai的支持下显示了其在线应用程序上的部署的证据

translated by 谷歌翻译

Effects of Graph Convolutions in Multi-layer Networks

Aseem Baranwal , Kimon Fountoulakis , Aukosh Jagannath

分类：机器学习 | (统计)机器学习

2022-04-20

图形卷积网络（GCN）是最受欢迎的体系结构之一，用于解决分类问题，并附有图形信息。我们对图形卷积在多层网络中的影响进行了严格的理论理解。我们通过与随机块模型结合的非线性分离高斯混合模型的节点分类问题研究这些效果。首先，我们表明，单个图卷积扩展了多层网络可以至少$ 1/\ sqrt [4] {\ Mathbb {e} {\ rm veg对数据进行分类的均值之间的距离。 }} $，其中$ \ mathbb {e} {\ rm deg} $表示节点的预期度。其次，我们表明，随着图的密度稍强，两个图卷积将此因素提高到至少$ 1/\ sqrt [4] {n} $，其中$ n $是图中的节点的数量。最后，我们对网络层中不同组合的图形卷积的性能提供了理论和经验见解，得出的结论是，对于所有位置的所有组合，性能都是相互相似的。我们对合成数据和现实世界数据进行了广泛的实验，以说明我们的结果。

translated by 谷歌翻译

Graph Attention Retrospective

Kimon Fountoulakis , Amit Levi , Shenghao Yang , Aseem Baranwal , Aukosh Jagannath

分类：机器学习 | (统计)机器学习

2022-02-26

Graph-based learning is a rapidly growing sub-field of machine learning with applications in social networks, citation networks, and bioinformatics. One of the most popular models is graph attention networks. They were introduced to allow a node to aggregate information from features of neighbor nodes in a non-uniform way, in contrast to simple graph convolution which does not distinguish the neighbors of a node. In this paper, we study theoretically this expected behaviour of graph attention networks. We prove multiple results on the performance of graph attention mechanism for the problem of node classification for a contextual stochastic block model. Here the node features are obtained from a mixture of Gaussians and the edges from a stochastic block model. We show that in an "easy" regime, where the distance between the means of the Gaussians is large enough, graph attention is able to distinguish inter-class from intra-class edges, and thus it maintains the weights of important edges and significantly reduces the weights of unimportant edges. Consequently, we show that this implies perfect node classification. In the "hard" regime, we show that every attention mechanism fails to distinguish intra-class from inter-class edges. We evaluate our theoretical results on synthetic and real-world data.

translated by 谷歌翻译

Speaker and Time-aware Joint Contextual Learning for Dialogue-act Classification in Counselling Conversations

Ganeshan Malhotra , Abdul Waheed , Aseem Srivastava , Md Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2021-11-12

Covid-19大流行的发作使风险的心理健康带来了。社会咨询在这种环境中取得了显着意义。与一般面向目标的对话不同，患者和治疗师之间的对话是相当明暗的，尽管谈话的目标非常明显。在这种情况下，了解患者的目的在提供治疗会话中提供有效咨询方面是必要的，同样适用于对话系统。在这项工作中，我们前进是一个小小的一步，在开发精神健康咨询的自动对话系统中。我们开发一个名为HOPE的新型数据集，为咨询谈话中的对话行为分类提供平台。我们确定此类对话的要求，并提出了12个域特定的对话法（DAC）标签。我们收集12.9k的话语从youtube上公开的咨询会话视频，用DAC标签提取他们的成绩单，清洁并注释它们。此外，我们提出了一种基于变压器的架构的Sparta，具有新颖的扬声器和时间感知的语境学习，用于对话行动分类。我们的评价显示了若干基线的令人信服的表现，实现了最先进的希望。我们还通过对Sparta进行广泛的实证和定性分析来补充我们的实验。

translated by 谷歌翻译